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摘要 : 内 含 子 插入 和 丢失 的 进化 动力 及 机 制 尚 存 有 许多 疑问 。 我 们 拟 通 过 对 真 核 生 物 的 604 个 同 源 基 因 的 蛋 日 高 度 
保守 区 域内 含 子 -外 显 子 的 结构 人 研究, 对 人 Homo sapiens. K fx, Rattus norvegicus ./|\ fs, Mus musculus HA RH Drosophila 
melanogaster、 风 比 亚 按 蚊 Anopheles gambiae 和 拟 南 芥 Arabidopsis thaliana 中 的 12 585 个 内 含 子 、3 074 个 保守 内 含 子 进 
TAM, 推断 出 不 同系 统 中 内 含 子 进 化 趋势 。 结 有 果 显 示 在 进化 中 双 翅 目 昆 虫 丢 失 了 约 850 多 个 内 含 子 , AER 
得 了 1 600 多 个 内 含 子 , 而 双 翅 目 昆 忠 获 得 的 内 含 子 及 疹 椎 动物 丢失 的 内 含 子 则 较 少 。 在 内 含 子 分 布 上 , RERA 
明显 5 末端 倾 回 性 外 , 双 想 目 昆 虫 也 显示 出 内 含 子 分 布 倾 问 于 基因 的 $" 端 ， 而 在 背 椎 动物 及 拟 南 芥 中 则 没有 这 种 分 
布 的 倾 回 性 。 这 可 能 是 由 于 双 翅 目 昆虫 丢 失 的 内 含 子 大 多 位 于 基因 的 3 ' 端 造成 的 。 通 过 对 现在 肴 椎 动物 内 合子 分 
布 及 获得 的 内 合子 的 插入 相 的 研究 ,发 现 内 含 子 的 获得 可 能 在 一 定 程度 上 导致 了 现存 基因 的 内 含 子 中 插 人 相 0 的 内 
含 子 最 多 这 一 倾向 。 

关键 词 : MMAR, HM; 植物 ; ASTER, 系统 发 育 

中 图 分 类 号 : Q963 文献 标识 码 : A 文章 编号 : 0454-6296(2010 )01-0038-09 

Comparative analysis of intron loss and gain between Diptera 


and Vertebrata 

YAN Zhen-Jun’’*, XU Ling-Hua’, ZENG Qing-Tao', JIN Shan’ * (1. Department of Life Science, 
Hubei University, Wuhan 430062, China; 2. College of Life Science, Hubei Normal University, 
Huangshi, Hubei 435002, China; 3. School of Chemical and Materials Engineering, Huangshi Institute of 
Technology, Huangshi, Hubei 435003 , China) 

Abstract: The mechanisms and evolutionary dynamics of intron insertion and loss in eukaryotic genes 
remain poorly known. A total of 604 protein-coding genes, which contain 12 585 introns and 3 074 
conserved introns in distinct amino acid alignment sequences in orthologous genes from Vertebrata ( Mus 
musculus, Rattus norvegicus and Homo sapiens) , Diptera ( Anopheles gambiae) and plant ( Arabidopsis 
thaliana) were analyzed using systematic methods to assess the causes of present-day distribution of introns 
in different lineages. The results demonstrated that more than 850 introns lost in Diptera evolution and more 
than 1 600 introns gained in Vertebrata evolution, but the intron gain in Diptera evolution and intron loss in 
Vertebrata evolution are relatively less. Additionally, along with yeast, the distribution of introns in Diptera 
exhibits a bit more prevalent in the 5’ end of genes, which was not found in vertebrates and plants. This 
may be due to intron loss mostly occurring in 3’ end of genes in Diptera evolution. Meanwhile statistical 
results indicate that phase 0 intron is most common in the three species in Vertebrata, and this might be the 
consequence of that phase 0 intron was the most frequently gained intron type in evolution. 
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尽管 内 含 子 的 研究 已 经 有 30 多 年 的 历史 了 ， AMAZED, Sverdlov 等 (2005 ) 通过 对 原 切 割 位 
但 人 们 对 内 含 子 的 获得 以 及 从 基因 位 点 上 丢失 的 机 54 (protosplice site) 频率 和 内 含 子 密度 ( intron 
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densities) 的 研究 , 证 明和 远 绿 物种 共有 内 含 子 位 点 中 
只 有 一 小 部 分 (5% ~ 10% ) 能 完成 内 含 子 的 平行 获 
得 , 而 绝 大 部 分 (90% ~95% ) 是 在 长 期 进化 过 程 中 
始终 存在 的 保守 的 内 含 子 。 他 们 认为 远 缘 真 核 生 物 
如 动物 真菌 、 植 物 的 同 源 基 因 相同 位 点 上 存在 的 内 
含 子 都 是 进化 中 保守 的 内 含 子 。Fedorov 等 (2002) 
及 Rogozin 等 (2003 ) 通 过 比较 分 析 揭 示 出 远 缘 真 核 
生物 的 同 源 基 因 中 存在 大 量 的 保守 内 合子 位 点 。 他 
们 认为 那些 共有 的 保守 内 合子 位 点 是 它们 从 祖先 那 
里 继承 下 来 的 ,而 在 单个 血 系 (lineage) 生 物 中 出 现 
的 内 含 子 则 是 在 进化 的 后 期 获得 的 。 

基因 的 内 含 子 -外 显 子 结构 的 保守 性 被 公认 为 
是 研究 内 含 子 进 化 关系 的 方式 之 一 ( Hardison et al., 
1996)。 各 物种 同 源 基 因 中 共有 的 内 含 子 -外 显 子 结 
构 会 有 一 部 分 不 同 , 这 可 能 是 由 于 内 合子 的 丢失 、 
获得 或 者 两 种 情况 兼 有 而 导致 的 (Boudet et al., 
2005 ) 。 研 究 表 明 , 在 不 同 模式 生物 基因 中 内 含 子 
数量 存在 明显 差异 ,如 每 个 基因 中 的 平均 内 合子 数 
在 酿酒 酵母 Saccharomyces cerevisiae 中 为 0. 04 个 ， 
HAR Drosophila melanogaster 中 为 3 A ( Adams 
et al., 2000), ÆI BRAT ZR Caenorhabditis elegans 
HAS 4, 人 类 Homo sapiens 中 为 8 个 (Mourier and 
Jeffares, 2003) 。 那 么 在 内 合子 的 进化 中 发 生 了 了 怎 
样 的 变化 导致 了 内 含 子 数量 如 此 的 改变 呢 ? 由 于 真 
核 生 物 的 进化 都 有 一 个 共同 的 祖先 , 因此 , 在 进化 
过 程 中 出 现 的 内 合子 的 改变 必然 是 在 一 些 系统 中 发 
生 了 内 含 子 的 大 量 丢 失 , 以 及 在 男 一 些 系统 中 出 现 
了 内 含 子 的 大 量 获 得 , 甚至 可 能 在 一 些 系统 中 还 两 
种 情况 兼 有 ( Brown and Doolittle,1997), 直到 现在 
KIE, 人 们 主要 是 通过 在 一 个 给 定 的 生物 体 中 用 统 
计 学 的 方法 或 比较 不 同 的 而 且 通 常 是 远 绿 物种 的 同 
源 基 因 的 方法 来 研究 基因 的 进化 结构 问题 (Boudet 
et al., 2005), Logsdon ( 2004 ) 及 Kent 和 Zahler 
(2000) 研究 了 几 种 线虫 的 内 含 子 的 分 布 , 他 们 发 现 
内 合子 的 获得 现象 大 量 存在 。 同 时 通过 两 类 线虫 
C. briggsae 和 C. elegans 的 比较 发 现 它 们 有 5% W 
内 含 子 的 差异 , 他 们 认为 这 一 结 采 至 少 说 明 内 含 子 
在 线虫 进化 中 的 变异 是 比较 明显 的 。Babenko 等 
(2004) 通 过 对 线虫 . 采 蝇 两 种 酵母 和 植物 中 大 量 
的 同 源 基因 内 含 子 位 点 的 比较 , 得 出 了 在 进化 过 程 
中 内 含 子 的 获得 大 于 内 含 子 丢 失 的 结论 。 现 在 有 一 
种 假设 认为 ,基因 结构 的 进化 在 所 有 的 物种 和 所 有 
基因 家 族 中 遵循 同样 的 规律 (Boudet et al., 2005) 。 

目前 已 经 测定 全 基因 组 序列 的 真 核 物 种 已 有 数 


十 种 ( ftp://ftp. nebi. nlm. nih. gov/genomes ) ， 但 是 
亲缘 关系 很 近 的 物种 却 很 少 ， 只 有 数 种 果 蝇 、 两 种 
线虫 和 两 种 酵母 的 基因 组 , 这 很 大 程度 上 限制 了 对 
于 内 含 子 - 外 显 子 结构 的 研究 。 因 此 ， 大 多 数学 者 
的 研究 方法 多 是 比较 多 拷贝 基因 在 基因 复制 过 程 中 
发 生 的 内 合子 丢失 或 获得 现象 (Fiteh 1970, 2000; 
Gotoh, 1998; Logsdon et al., 1998; Charlesworth, 
1998 ; Sonnhammer and Koonin, 2002; Hartung et al., 
2002) ， 也 有 学 者 在 近 绿 物种 之 间 利 用 一 个 同 源 基 
因 对 内 含 子 的 变化 进行 研究 ( Wada et al., 2002) 。 

在 真 核 生物 中 由 pre-mRNA 形成 mRNA 的 过 程 
HH, A +e HtA y (Thompson et al., 1994) 。 
Fedorov( 2002) 及 Rogozin “(2003 ) 比较 了 真 核 同 源 
基因 , 发 现在 长 期 的 进化 过 程 中 它们 的 结构 相似 ， 
尤其 是 那些 编码 具有 高 度 保守 有恒 日 质 序 列 的 基因 ， 
它们 不 但 编码 的 蛋白 质 序列 高 度 保 守 ， 且 编码 该 序 
列 的 DNA 结构 即 内 含 子 -外 显 子 的 结构 也 是 高 度 保 
守 的 。 单 拷贝 基因 大 多 是 一 些 功能 重要 的 基因 , 在 
进化 上 具有 较 高 的 保守 性 , 因此 , 编码 保守 和 蛋 日 质 
序列 的 单 找 贝 基因 的 内 含 子 - 外 显 子 结构 对 于 人 研究 
物种 的 进化 过 程 中 内 含 子 的 进化 来 说 无 疑 是 一 个 很 
好 的 工具 。 同 时 利用 单 拷贝 基因 的 内 含 子 -外 显 子 
结构 进行 研究 还 可 以 排除 可 能 存在 的 多 捞 贝 基因 物 
种 水 平 上 的 交换 现象 而 造成 的 内 含 子 的 改变 , 对 于 
这 种 改变 我 们 难以 区 分 它 是 物种 分 化 水 平 上 的 变 
化 , 还 是 物种 内 的 变化 。 

基于 对 双 这 日 昆虫 内 含 子 进化 的 趋势 的 种 种 疑 
问 , 我 们 课题 组 开始 通过 黑 腹 果 蝇 基因 组 基因 进行 
第 选 ,找到 部 分 单 拷贝 基因 及 其 相关 在 疹 椎 动物 及 
植物 中 的 同 源 基 因 , 通过 研究 我 们 发 现在 双 荡 目 昆 
虫 在 进化 中 丢失 了 大 量 的 内 含 子 及 兰 椎 动物 在 进化 
中 获得 了 大 量 的 内 含 子 。 本 人 研究 在 金融 等 (2006 ) 
的 基础 上 进一步 地 扩展 了 单 拷贝 基因 的 数目 , 并 对 
内 含 子 插入 相 、 内 含 子 插入 位 点 分 布 进 行 了 进一步 
的 分 析 。 通 过 比较 发 现 内 含 子 的 插入 及 丢失 过 程 中 
的 倾 回 性 , 进一步 说 明了 由 于 这 种 插入 的 倾向 性 最 
终 有 可 能 导致 现存 的 真 核 生物 中 0 相 内 含 子 数目 明 
显 的 较 多 的 现象 。 


1 材料 和 方法 
1.1 蛋白 质 同 源 (保守 ) 序 列 中 内 含 子 位 点 保守 性 分 析 


在 背 椎 动物 中 选取 人 Homo sapiens, K fx, Rattus 
norvegicus ./]\ fs, Mus musculus 为 代表 种 , 昆虫 中 用 
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E H R by Drosophila melanogaster ke |X| EK WW Fe Ix 
Anopheles gambiae 为 代表 种 ,植物 用 拟 南 分 
Arabidopsis thaliana 为 代表 种 , 为 外 我 们 还 选取 了 酿 
酒 酵母 Saccharomyces cerevisiae。 这 是 由 于 人 们 已 经 
掌握 了 以 上 这 些 物 种 的 全 基因 组 序列 和 和 蛋白 序列 
( http://www. nebi. nlm. nih. gov/genome/guide/ 
fly/) 。 选 择 单 拷贝 基因 及 其 和 蛋 昌 同 源 序列 的 方法 
参照 金 珊 等 (2006)。 在 分 析 的 604 个 基因 的 和 蛋 日 
质保 守 序 列 中 共有 12 585 个 内 合子 及 3 074 个 保守 
Nat. 

由 于 在 生物 进化 的 过 程 中 , 内 含 子平 行 获得 的 
情况 很 少 , 在 进行 统计 时 可 以 忽略 不 计 (Sverdlov et 
al., 2005 ) 。 也 就 是 说 ,如果 在 人 和 大 鼠 基 因 的 同 
一 位 点 有 一 个 内 含 子 而 小 鼠 基 因 的 该 位 态 没 有 ， 那 
么 , 这 个 内 含 子 就 是 在 兰 椎 动物 的 进化 中 保守 的 ， 
而 不 是 人 和 大 鼠 在 进化 中 各 目 平 行 获得 的 。 据 此 ， 
本 文中 的 内 含 子 保守 性 分 为 : (1) 在 所 有 物种 中 保 
守 的 内 合子 位 点 ( 指 在 所 有 物种 中 出 现 的 内 合子 ) 
如 图 1 PASH c; (Il) Hw RAED PAS 
ASS EEDA PENA aH) 如 图 1 
中 内 含 子 a Ald; (M) WA OG H ER RSE 


NAS FEED AG BB PARE A) 
(IV) 在 脊椎 动物 和 双 翅 目 昆 虫 中 保守 的 内 含 子 (在 
AES Dy AGH BEE PATER); CV) A 
ESI PORE A DOE ES PE A 
at) 如 图 1 中 内 含 子 e Aj; (VI) ÆA HA ER 
中 保守 的 内 含 子 ( 仅 在 双 杷 目 昆 虫 中 存在 的 内 含 
子 ) 如 图 1 中 内 含 子 g;( VI) 非 保守 的 内 含 子 位 点 
( 仅 在 一 个 物种 中 存在 的 内 含 子 ) 如 图 1 PAG 
Fi 
1.2 蛋白 序列 比较 和 系统 进化 分 析 

用 ClustalV (Thompson et al., 1994 ) XE H JEY 
列 进 行 排列 并 仔细 地 检查 对 照 。 由 于 酵母 通过 反 转 
录 丢 失 了 几乎 所 有 的 古老 内 售 子 ,而 内 合子 的 获得 
又 不 活跃 (Fink，1987) ,所 以 酵母 基因 中 内 含 子 非 
常 稀少 ,因此 在 下 面 的 比较 分 析 中 没有 包括 酵母 。 
运用 PAUP4. 04a (Swofford, 1999 ) 构建 最 大 简约 树 
LI FU Ba A. thaliana 
为 外 和 群 。 以 有 果 蝇 基因 CG17876 为 例 。 图 1 AAR 
日 基因 CG11876 的 蛋 晶 质保 守 序 列 为 例 进行 的 内 
含 子 位 置 的 确定 。 


(maximum parsimony, MP), 

















a b d e f 
Hum AALQYTVRDA INQGMDEELERDEK VFLLGEEV AQYDGAYKV$RGLWKKYGDKRI IDTPISEMGFAGIAVGAAMAGLRP ICEFMTFNFSMQAI 
Rat AAVQLTVREA INQGMDEELERDEKVFLLGEEV AQYDGAYKVBRGLWKKYGDKRI IDTPISEMGFAGIAVGAAMAGLRP ICEFMTFNFSMQAI 
Mus AAVQLTVREA INQGMDEELERDEK VFLLGEEVAQYDGAYKV$RGLWKKYGDKRI IDTPISEMGFAGIAVGAAHAGLRPICEFMTFNFSMQAT 
Dro AAKQMTVRDALNSALDDELARDDRVF ILGEEVAQYDGAYKVGRGLWKKYGDKRV IDTPITEMGF AG IAVGAAMAGLRPVCEFMTWNFSMQAI 
Aga SAQQLTVRDALNAALDEEMERDEKVFLLGEEVAQYDGAYKVSRGLWKKYGDKRV IDTP I TEMGFAG LAVGAAMAGLRPVCEFMTFNFSMQAI 
Ara GAKEMTVRDALNSATDEEMSADPKVFVMGEEVQYQGAYKI}KGLLEKYGPERVYDTPITEAGFTGIGVGAAYAGLKPVVEFMTFNFSMQA} 
g h I j k 
Hum DQV INSAAKTYYMSGGLQPVP IVFRGPNGASAGVAAQHSQCFAAWYGHCPGLKVVSPWNSEDAKGLIKSAIRDNNPYVVLENELMYGVPFEF 
Rat DQV INSAAKTYYMSAGLQPVP IVFRGPNGASAGVAAQHSQCFAAWYGHCPGLKVVSPWNSEDAKGLIKSAIRDDNPYVMLENELMYGVAFEF 
Mus DQV INSAAKTYYMSAGLQPVP IVFRGPNGASAGVAAQHSQCFAAWYGHCPGLKVVSPWNSEDAKGLIKSAIRDNNPYVMLENELMYGVAFEF 
Dro DHL NSAAKTFYMSAGAVNVPTVFRGPNGAASGVAAQHSQCFAAWYAHCPGLKVLSPYDAEDARGLLKSATRDPDPVVFLENELVYGTAFPV 
Aga DAI NSAAKTFYMSAGTVNVP IVFRGPNGAAAGVAAQHSQCFGAWYSHCPGLKVVSPYDSEDAKGLIIKAA IRDPDPVVVLENEMVYGVSYPV 
Ara DHI INSAAKSNYMSAGQINVP IVFRGPNGAAAGVGAQHSQCYAAWYASVPGLKVLAPYSAEDARGLLKAAIRDPDPVVFLENELLY$ESFP I 
图 1 WERE CC11876 ZEA Ke REA PR Be BE RF) aE BA E TAAR E 


Fig. 1 Blast of highly conservative amino acid sequences and intron sites in Drosphila melanogaster CG11876 with those of orthologous genes 
Hum: 人 Homo sapiens; Rat: K fx, Rattus norvegicus; Mus; 小 记 Mus musculus; Dro; © R Riẹ D. melanogaster; Aga: XJ Et W tè tx Anopheles 
gambiae; Ara; 拟 南 芥 Arabidopsis thaliana. 图 3 Ej The same for Fig. 3. 有 一 个 氨基 酸 的 方形 盒子 表示 插入 相 1 内 含 子 存在 的 部 位 ; 有 一 个 氨基 
酸 的 椭圆 形 盒子 表示 插入 相 2 内 含 子 存在 的 部 位 ; 两 个 氨基 酸 位 于 同一 个 方形 盒子 中 表示 插入 相 0 内 含 子 存在 于 这 两 个 氨基 酸 之 间 。One 


amino acid in a rectangle box represents the position of phase 1 intron; one amino acid in an elliptic box represents the position of phase 2 intron; two 





amino acids in one rectangle box represent the position of phase 0 intron between the two amino acids. 
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1.3 内 含 子 获得 和 丢失 的 分 析 

内 含 子 获 得 及 丢失 的 确认 方法 参见 金 珊 等 
(2006) 。 真 核 生物 分 化 假说 认为 着 椎 动物 与 昆虫 
的 分 离 是 在 二 者 的 祖先 与 拟 南 人 旬 发 生 分 离 之 后 发 生 
的 (Sogin, 1991; Dacks and Doolittle, 2001 ) 。 因 此 ， 
拟 南 价 内 含 子 的 位 置 可 以 作为 痛 椎 动物 及 昆虫 内 含 
子 丢 失 和 获得 的 参照 ， 即 理论 上 , CERT RAE 
动物 中 同一 位 置 存在 的 内 含 子 , 在 昆虫 中 也 应 该 存 
在 , 假如 没有 的 话 则 可 以 认为 该 内 含 子 在 昆虫 进化 
过 程 中 丢失 了 。 由 此 , 在 本 研究 中 内 含 子 丢失 的 统 
计 方 法 为 : 如 某 个 内 含 子 在 拟 南 介 和 痊 椎 动物 中 存 
在 而 在 果 蝇 和 按 蚊 中 没有 , 则 认为 该 内 含 子 在 采 晶 
RIFE PERS, WAL 中 的 内 含 子 a 和 d。 同 样 ， 
FEW Pa SP A GE BP ET EA ED 
的 内 含 子 , 可 认为 是 在 兰 椎 动物 中 丢失 了 。 获 得 新 
的 内 含 子 的 统计 方法 为 : 非 保 守 的 内 含 子 位 点 或 分 
IENA BB BATES PENA TIIA 
为 是 新 获得 的 内 含 子 ， 如 图 1 的 内 含 子 e。, g, i, jo 
如 有 果 一 个 内 含 子 仅仅 存在 于 或 仅仅 不 存在 于 拟 南 介 
F, BA, 这 应 该 是 一 个 未 定 的 内 含 子 , 因为 我 们 
不 能 断定 这 个 内 含 子 是 在 动 、 植 物 发 生 分 化 后 在 拟 
南 价 中 获得 或 丢失 的 还 是 在 脊椎 动物 和 昆虫 的 祖先 


中 丢失 或 获得 的 ， 如 图 1 的 内 含 子 b, f h, ko 
如 非 保守 的 一 个 内 合子 位 点 (在 一 物种 存在 的 内 含 
于 ) 与 妨 一 个 在 其 他 物种 中 保守 的 内 合子 位 点 相差 
1 ~15( 包 含 15 ) 个 碱 基 , 那么 我 们 认为 这 是 发 生 了 
同一 位 点 的 内 含 子 的 漂移 (Rogozin et al., 2003), 
图 1 中 的 内 含 子 a, d 则 被 认为 是 发 生 了 内 含 子 的 
ERS o 


2 结果 与 分 析 


2.1 真 核 生物 同 源 基 因 编 码 区 保守 序列 中 内 含 子 
的 丢失 和 获得 

2.1.1 昆虫 中 同 源 基 因 编 码 区 保守 序列 中 内 含 子 的 
丢失 和 获得 : 在 双 翅 目 昆 虫 的 祖先 中 内 含 子 的 获得 
相对 较 少 , 在 801 个 双 翅 目 昆 忠 的 保守 内 含 子 (在 所 
有 物种 中 均 有 的 内 含 子 + A ESI OG A Be 
中 存在 的 内 含 子 + 在 双 翅 目 昆 虫 及 拟 南 芥 中 存在 的 
内 含 子 + 仅 在 双 翅 目 昆虫 中 存在 的 内 含 子 )( 表 1) 中 
只 有 70 个 是 仅 存在 于 双 翅 目 昆 虫 的 祖先 中 的 , 这 些 
内 含 子 被 认为 是 在 双 翅 目 昆 虫 的 祖先 分 化 时 获得 的 ， 
占 保 守 内 含 子 的 8.7% 。 随 后 ， 黑 腹 果 晶 和 办 比 亚 按 
蚊 各 获得 85 个 和 65 个 内 含 子 ( 表 1) 。 


表 1 在 604 个 同 源 基因 中 双 翅 目 昆 虫 的 保守 内 含 子 的 保守 性 分 布 以 及 内 含 子 的 获得 、 丢 失 和 漂移 


Table 1 The characteristics of introns in highly conservative protein domains of 604 


orthologous genes in Diptera and intron gain, loss and sliding 


ENE 内 比 亚 按 蚊 


Drosophila melanogaster Anopheles gambiae 


在 双 怒 目 昆 忠和 痊 椎 动物 中 的 保守 内 含 子 Conservative intron in Vertebrata and Diptera 410 


在 所 有 物种 中 的 保守 内 含 子 Conservative intron in all species 266 
FELGA BBL AUSF AERA SF Conservative intron in Arabidopsis thaliana and Diptera 55 
获得 Gain 仅 存 在 于 双 却 目 昆 虫 中 的 保守 内 含 子 Conservative intron in Diptera 70 
仅 存 在 一 物种 中 Conservative intron in one species 85 65 
获得 总 数 Total intron gain 155 135 
保守 内 含 子 总 数 Total conservative introns 801 
丢失 及 漂移 “在 昆虫 的 共同 的 祖先 中 丢失 Intron loss in ancestor of Diptera 668 
Loss and sliding 在 单个 物种 中 丢失 Intron loss in one species 182 196 
FARA EB Total loss 850 864 
FRX Ratio of intron loss (% ) 60.7 61.8 
漂移 Intron sliding 18 21 


保守 内 含 子 总 数 = 在 所 有 物种 中 保 字 内 合子 + 在 双 翅 目 昆 虫 和 兰 椎 动物 中 保守 内 含 子 + 在 双 翅 目 昆 由 和 拟 南 芥 中 保守 内 合子 + FETA H ERP 
保守 内 含 子 Total conservative introns equal to conservative introns in all species plus conservative introns in Vertebrata and Diptera plus conservative introns in 
A. thaliana and Diptera plus conservative introns in Diptera; 7E XG A E BASES RE = TOES SHR TAS SHAS Intron loss 
in ancestor of Diptera equals to introns conservative in Vertebrata and A. thaliana. 果 则 的 内 含 子 丢 失 率 = 果 晶 内 含 子 丢失 / (在 所 有 物种 中 保守 内 含 子 + 
在 双 翅 目 昆 虫 和 痊 椎 动物 中 保守 内 含 子 + 在 双 翅 目 昆虫 和 拟 南 齐 中 保守 内 含 子 + 在 脊椎 动物 和 拟 南 芥 中 保守 内 合子 的 内 含 子 ) Ratio of intron loss in 
D. melanogaster equals to introns lost in D. melanogaster divided by introns conservative in all species plus conservative in Vertebrata and Diptera plus 
conservative in A. thaliana and Diptera plus conservative in Vertebrata and A. thaliana; 按 蚊 的 内 含 子 丢 失 率 = 按 蚊 内 含 子 丢失 /( 在 所 有 物种 中 保守 内 含 
子 + 在 双 翅 目 昆虫 和 痊 椎 动物 中 保守 内 含 子 + 在 双 翅 目 昆 忠和 拟 南 齐 中 保守 内 含 子 + TOES AO PRT A TAA) Ratio of intron loss 


in A. gambiae equals to introns lost in A. gambiae divided by introns conservative in all species plus conservative in Vertebrata and Diptera plus conservative in 


A. thaliana and Diptera plus conservative in Vertebrata and A. thaliana. 
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除了 在 由 兰 椎 动物 与 昆虫 的 祖 抑 回 双 翅 目 昆虫 
的 祖先 进化 的 过 程 中 丢失 了 668 TAE TENH 
目 昆 虫 的 共同 的 祖先 中 丢失 的 内 含 子 即 在 峭 椎 动物 
和 拟 南 芥 中 保守 的 而 在 双 霄 目 昆 虫 中 没有 的 内 合 
PF) ob, ARB PIER 182 FAET, iep 
ER 196 个 ( 表 1)。 那 么 在 黑 腹 果 蝇 和 冈比亚 按 蚊 
中 内 含 子 的 丢失 率 分 别 为 60.8% 和 61.8%( 表 1)。 
在 统计 的 区 域内 黑 腹 有 果 蝇 共有 内 含 子 704 个 , KE 
亚 按 蚊 共有 内 含 子 670 个 , 分别 是 动 植物 的 共同 祖 
先 的 71% 和 68% (图 2)。 
2.1.2 疹 椎 动物 同 源 基 因 编 码 区 保守 序列 中 内 含 子 
的 丢失 和 获得 :在 统计 的 604 个 同 源 基因 的 重 晶 质保 
守 区 域 中 , 消 椎 动物 的 祖先 内 含 子 获得 的 较 多 , 在 
2 949 个 贿 椎 动物 保守 内 含 子 中 (在 所 有 物种 中 保守 
AET + AED AUST PERT ASF + ER 
ESI OO AB RSA a + ANER ESI 
中 存在 的 内 含 子 ) ,有 1 605 个 是 仅 存 在 于 脊椎 动物 
中 的 , 这 些 内 合子 被 认为 是 销 椎 动物 的 祖先 在 与 昆 


虫 的 祖先 分 化 时 获得 的 ， 占 保守 内 含 子 的 54. 4% 。 
随后 , 再 加 上 大 忌 \、 小 也 和 人 中 分 别 获得 和 丢失 的 内 
含 子 , 在 统计 的 和 蛋 日 质保 守 序 列 中 , A AKRAN i 
中 内 含 子 数 分 别 为 2 948, 2 923 和 2 945, 均 较 动 \ 植 
物 的 祖先 中 的 内 含 子 约 多 2 信 ( 表 2, 图 2)。 
2.2 ”内 含 子 的 相对 位 置 和 内 含 子 获得 与 丢失 的 位 
点 倾向 性 

在 对 所 有 物种 的 内 含 子 插入 相 进 行 比 较 中 发 现 
插入 相 为 0, 1, 2 的 内 含 子 数目 比例 在 不 同 物种 中 
明显 不 同 , 在 双 计 目 昆虫 和 拟 南 介 中 接近 于 4:3:3， 
而 在 贿 椎 动物 中 大 约 为 2: 1: 1( 图 3)。 由 于 插入 相 
0 的 内 含 子 多 于 插入 相 1 和 2 的 内 含 子 , 这 就 导致 
我 们 观察 到 了 更 多 两 端 都 是 插入 相 0 的 对 称 外 显 子 
(symmetrical exon), Fb, RAMANA FN 
插入 相 也 进行 了 统计 , 在 获得 的 内 合子 中 , 插入 相 
为 0, 1, 2 的 内 合子 数 目 比 例 在 背 椎 动物 中 接近 
5:3:2, EXA H EREA E (REN 3:4:3, 按 
WA 1:1:1) (图 4)。 


R2 64 个 同 源 基因 和 蛋白质 高 度 保守 区 兰 椎 动物 保守 内 含 子 的 保守 性 分 布 以 及 内 含 子 的 获得 、 丢 失 及 漂移 


Table2 The characteristic of introns in highly conservative protein domains of 604 orthologous 


genes in Vertebrata and intron gain, intron loss and sliding 


人 ER 小 鼠 
Homo sapiens Rattus norvegicus Mus musculus 
在 所 有 物种 中 的 保守 内 含 子 Conservative intron in all species 266 
在 拟 南 草 和 痊 椎 动物 中 的 保守 内 含 子 Conservative intron in Vertebrata and Arabidopsis thaliana 668 


EG FEE Ha AAS HE PS RSF AY T Conservative intron in Vertebrata and Diptera 410 


获得 Gain 存在 于 着 椎 动物 中 Conservative intron in Vertebrata 


仅 存 在 于 一 物种 中 Conservative intron in one species 


保守 内 含 子 总 数 Total conservative intron 


1 605 


2 949 


Fite Ke 在 疹 椎 动物 的 共同 祖先 中 丢失 Intron loss in ancestor of Vertebrata 55 


Loss and sliding 在 单个 物种 中 丢失 Intron loss in one species 
丢失 的 总 数 Total intron loss 
FRÆ Ratio of intron loss (% ) 


漂移 Intron sliding 


9 32 8 

64 87 63 
4.6 6.2 4.5 
8 15 16 


保守 内 含 子 总 数 的 计算 方法 同 表 1。The calculation of conservative introns is the same as in Table 1. 在 疮 椎 动物 的 共同 的 祖先 中 丢失 = 在 拟 南 芥 和 
双 翅 目 昆 虫 中 保守 内 含 子 的 内 含 子 Intron loss in ancestor of Vertebrata equals to intron conservative in Diptera and A. thaliana; 人 的 内 含 子 丢失 率 = 人 
KETER (在 所 有 物种 中 保守 内 含 子 + 在 疹 椎 动物 和 拟 南齐 中 保守 内 含 子 的 内 含 子 + 在 疹 椎 动物 和 双 翅 目 昆 虫 中 保守 内 含 子 + ENA HER 
和 所 南齐 中 保守 内 含 子 ) Ratio of intron loss in H. sapiens equals to introns lost in H. sapiens divided by introns conservative in all species plus conservative 
in Vertebrata and Diptera plus conservative in A. thaliana and Diptera plus conservative in Vertebrata and A. thaliana; KR WAG TERZ = 大 鼠 内 含 
子 丢失 /( 在 所 有 物种 中 保守 内 含 子 + OED oT PRT AS SASS + eR ESD Ge BB RSP Ae +AA Be ae A 
南 芥 中 保守 内 含 子 ) Ratio of intron loss in R. norvegicus equals to introns lost in R. norvegicus divided by introns conservative in all species plus 
conservative in Vertebrata and Diptera plus conservative in A. thaliana and Diptera plus conservative in Vertebrata and A. thaliana; 小 鼠 的 内 含 子 丢 失 率 
= 小 鼠 内 含 子 丢 失 /( 在 所 有 物种 中 保守 内 含 子 + EDA PRT AR TNA ST + AED Gd BBR ATA HT + 在 双 翅 
目 昆 虫 和 拟 南 芥 中 保守 内 含 子 ) Ratio of intron loss in M. musculus equals to introns lost in M. musculus divided by introns conservative in all species plus 


conservative in Vetebrata and Diptera plus conservative in A. thaliana and Diptera plus conservative in Vertebrata and A. thaliana. 
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双 翅 目 昆 和 忠和 兰 椎 动物 的 祖先 


Ancestor of Vertebrata and Diptera 


双 翅 目 昆 虫 的 祖先 

Ancestor of Diptera 
801 

(81%) 





PX] EESE Fez 









真 兽 类 的 祖先 


Ancestor of Euthera 


2395 | 
(242%) | 


拟 南 芥 


Arabidopsis thaliana 


| KR OAR 


Drosophila melanogaster Anopheles gambiae Homo sapiens Rattus norvegicus Mus musculus 





图 2 同 源 基 因 的 保守 和 蛋白 区 域 的 内 含 子 在 各 物种 进化 过 程 的 数量 的 改变 
Fig. 2 The diversity of intron in highly conservative protein domains of orthologous gene during evolution of different lineages 
框 中 数字 为 内 含 子 数目 , 括号 内 百分数 为 与 动 植物 的 最 后 祖先 中 所 含有 的 内 含 子 数目 的 比值 。 动 植物 共同 祖先 内 含 子 数目 (989 个 ) = 所 有 物种 中 的 内 
含 子 总 数 + 拟 南齐 与 疹 椎 动物 共有 的 保守 内 含 子 数 + 拟 南齐 与 双 翅 目 昆 虫 共 有 的 保守 内 含 子 总 数 。The number in the box is the intron number. The 


percent in brackets is the intron number in box compared with the intron number of the latest ancestor. Conservative introns of vertebrates and plants equal to 


conservative introns in all species plus conservative introns in Vertebrata and A. thaliana plus conservative introns in A. thaliana and Diptera. 


60) © 插入 相 0 Phase 0 
O 插入 相 1 Phase 1 
E 插入 相 2 Phase 2 


20, 


内 含 子 插入 相 所 所 占 比 例 
Ratio of intron phase (%) 


Je 
> 





人 KAR ”小 鼠 黑 腹 果 蝇 冈比亚 按 蚊 拟 南 芥 
Hum Rat Mus Dro Aga Ara 
图 3 各 种 模式 生物 同 源 基 因 编 码 区 保守 序列 的 
内 含 子 的 插入 相 分 布 


Fig. 3 Phase ratio of intron in coding sequence of 


orthologous genes in all model species 


为 了 尽 可 能 真实 地 反映 内 含 子 位 点 在 基因 全 长 
上 的 分 布 状 况 , 我 们 在 所 有 物种 中 选择 了 84 个 同 
源 基因 全 长 序列 进行 比较 分 析 。 在 这 84 个 基因 中 ， 
人 \ 大 鼠 ` 小 鼠 `、 有 果 蝇 、 按 娄 、 拟 南 介 和 酵母 分 别 有 
681, 683, 681, 244, 237, 554 和 24 个 内 含 子 , F 
椎 动 物 的 祖先 获得 了 373 个 内 合子 , 丢失 了 18 个 
AET, 一 共有 681 个 内 含 子 。 在 随后 的 进化 中 ， 
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Vertebrate Drosophila melanogaster Anopheles gambiae 
图 4 少 椎 动物 和 昆虫 同 源 基因 编码 区 保守 序列 中 获得 的 
内 信子 位 点 的 插入 相 分 布 


Fig. 4 Phase ratio of intron gain in conservative sequences of 





orthologous genes in Vertebrata and Diptera 


仅仅 获得 了 两 个 内 含 子 , 而 没有 内 含 子 的 丢失 。 在 
WG A BLAH, RERS 54 个 内 含 子 , BRI 
305 FART, HBR YS 4 SASH, 丢失 了 
306 个 内 合子。 内 含 子 的 丢失 有 明显 的 3“ 末 器 倾 
H, 内 含 子 的 获得 则 没有 位 点 倾向 性 ; FEA HES 
中 获得 和 丢失 是 均匀 发 生 的 , 没有 位 点 的 倾向 性 。 
(图 5, 图 6)。 
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图 5 获得 的 内 含 子 在 基因 全 长 上 的 分 布 
Fig. $ Distribution of gained introns in whole sequence (all genes) 
横 坐 标 表 示 基 因 序 列 中 相应 的 位 置 , 0 代表 基因 序列 的 起 点 , 1 代表 终点 ; 纵 坐 标 表示 该 位 置 获 得 的 内 含 子 的 个 数 。 下 同 。Horizontal axis: 


Relative position within the sequence. 0 indicates the position of the start of sequence, and 1 the position of the end of sequence. The same below. 
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图 6 内 会 子 丢失 在 基因 全 长 上 的 分 布 


Fig. 6 Distribution of intron losses in whole sequence (all genes) 


3 讨论 


3.1 在 进化 过 程 中 , 双 翅 目 昆虫 获得 较 少 的 内 含 
F, 冰 椎 动物 的 祖先 爆发 性 地 获得 了 大 量 的 内 含 子 

许多 研究 表明 , 真 核 生 物 在 进化 过 程 中 ,丢失 
了 一 部 分 内 含 子 同 时 也 获得 了 一 部 分 新 的 内 含 子 
(Fedorov et al., 2002; Wada et al., 2005) ,但 是 丢 
失掉 的 内 合子 和 新 获得 的 内 含 子 哪个 更 多 呢 ? 近来 
的 研究 显示 在 一 些 基 因 中 丢失 的 内 含 子 要 多 于 获得 
HAE T (Charlesworth and Liu, 2002; Fedorov et 
al., 2003) , 相反 地 , 在 一 些 家 族 进 化 中 , 获得 的 内 
SHBSFERAA GF (Babenko et al., 2004; 
Qiu et al., 2004) 。 

Rogozin 等 (2003 ) 等 比较 了 动物 、 植物、 原生 动 
物 的 8 个 全 基因 组 序列 中 684 个 同 源 基因 的 内 合子 
位 点 。 发 现 有 大 量 的 内 合子 在 人 和 植物 拟 南 从 中 是 
保守 的 , 但 是 在 线虫 、 真 菌 、 市 上肢 动物 和 原生 动物 症 
原虫 中 丢失 了 。 同 时 还 发 现在 植物 和 痊 椎 动物 获得 
大 量 的 内 含 子 而 其 他 的 物种 中 获得 要 少 得 多 。Roy 
等 (2003 ) 对 小 鼠 \ 大 鼠 及 人 进行 的 大 规模 的 基因 组 
对 比 , 在 10 020 个 内 会 子 位 点 上 小 鼠 丢失 了 5 个 内 
at, 在 1 459 个 内 合子 位 点 上 大 鼠 丢失 了 一 个 内 
含 子 。 在 所 有 物种 中 没有 新 的 内 含 子 的 获得 。 我 们 


的 结果 显示 , 峭 椎 动物 的 2 949 个 保守 的 内 含 子 位 
所 中 多 于 一 半 的 内 含 子 (1 605 +) EEA HED 
祖先 分 化 出 来 时 获得 的 , 同时 只 丢失 了 55 TAG 
FT, 在 随后 同人 \ 大 鼠 及 小 鼠 的 分 化 中 , 内 合子 的 
变化 相对 较 小 , 总 共 只 获得 了 18 个 内 含 子 , BRS 
49 个 内 含 子 。 尽 管内 含 子 的 丢失 率 略 高 于 Roy 等 
(2003) 的 结果 , 内 含 子 获得 的 情况 也 与 之 不 同 , 但 
丢失 和 获得 的 差异 仍然 不 明显 。 因 此 , FA HES 
中 大 量 的 内 含 子 获得 可 能 不 是 在 背 椎 动物 进化 的 后 
期 完成 的 , 相反 , 在 兰 椎 动物 的 祖先 与 昆虫 的 祖先 
分 化 时 , 消 椎 动物 的 祖先 很 有 可 能 爆发 性 地 获得 了 
大 量 的 内 合子 。 

在 双 翅 目 昆 虫 中 由 于 大 量 内 含 子 的 丢失 造成 内 
合子 保守 位 点 的 数量 明显 地 较 峭 椎 动物 和 植物 少 ， 
而 且 只 在 双 九 目 昆 虫 中 你 守 的 或 只 在 一 种 双 翅 目 昆 
虫 中 单独 存在 的 内 含 子 数量 极 少 , 说 明 在 双 翅 目 昆 
虫 的 进化 中 内 合子 的 获得 较 少 。 在 痛 椎 动物 中 , 内 
合子 获得 较 多 而 丢失 较 少 , HER T ARESA 
内 含 子 在 数量 上 明显 地 多 于 昆虫 。 以 上 的 结论 可 以 
很 好 地 解释 为 什么 疹 椎 动物 平均 每 个 基因 中 内 含 子 
的 数量 较 双 翅 目 昆虫 多 。 

3.2 插入 相 0 的 内 含 子 在 3 种 插入 相 中 比例 最 多 
这 一 现象 可 能 是 由 于 内 含 子 的 获得 引起 的 
金融 等 (2006 ) 发 现 插入 相 为 0, 1, 2 的 内 合子 
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数目 的 比例 在 双 邓 目 昆 虫 中 接近 4:3:3, AAIE 
物 中 接近 2::1:1, 我 们 也 得 到 了 相同 的 比例 , 并且 
在 拟 南 介 中 也 接近 于 4:3:3, SOME awe 
(图 3)。 但 是 我 们 的 结论 与 以 前 的 报道 说 3 种 插入 
相 之 比 为 5: 3:2(Long and Deutsch, 1999 ) 是 不 相同 
的 , 造成 这 一 不 同 的 原因 可 能 与 我 们 的 研究 中 ， 双 
翅 目 昆虫 和 拟 南 从 所 丢失 的 内 含 子 含有 较 多 插 人 相 
0 的 内 含 子 , 同时 获得 的 内 含 子 含 有 相对 较 多 插入 
相 2 的 内 含 子 有 关 。 

关于 为 什么 插入 相 0 的 内 含 子 在 3 种 插入 相 中 
所 占 比例 最 多 这 一 问题 ,人们 倾 回 于 接受 以 前 报道 
中 的 一 个 观点 : 插入 相 0 的 内 含 子 是 古老 的 格式 化 
的 内 含 子 (De Souza et al., 1998 ) 。 但 本 研究 发 现 ， 
ATES DM ARENAS FH, 插入 相 为 0, 1, 2 
的 内 含 子 比 为 5:3:2， 即 在 进化 过 程 中 ,获得 的 插 
入 相 0 的 内 含 子 最 多 , 因此 , 插入 相 0 内 含 子 在 3 
种 插入 相 的 内 含 子 中 所 占 比 例 最 多 的 现象 可 能 是 由 
于 ( 至少 部 分 是 可 能 由 于 ) 插 入 相 0 内 含 子 的 获得 
最 多 引起 的 。 而 对 于 有 果 蝇 和 按 蚊 来 说 ,获得 的 内 全 
子 中 插入 相 为 0, 1, 2 的 内 含 子 数目 的 比例 分 别 是 
3:4:3 和 1:1:1, 这 一 比例 在 双 这 目 昆 忠和 痊 椎 动 
物 之 间 以 及 两 种 双 妃 目 昆 虫 之 间 的 不 同 , 可 能 是 由 
于 双 翅 目 昆 虫 获得 的 内 含 子 太 少 致使 统计 结果 不 准 
确 造 成 的 。 
3.3 ”昆虫 中 现存 的 内 含 子 有 轻微 的 SS 末端 倾 问 性 

按照 Mourier 等 (2003 ) 的 观点 , ERDENE 
子 的 生物 中 ,内 含 子 在 基因 上 的 分 布 有 5' 末 端 倾 问 
E, 即 更 多 的 内 含 子 分 布 靠 近 基 因 的 S 末端; 而 在 
富 含 内 含 子 的 生物 中 ,内 含 子 在 基因 上 是 均匀 分 布 
的 。 本 研究 发 现 除了 酵母 的 内 含 子 有 明显 的 SS" 末 
端 倾 问 性 外 , 双 翅 目 昆 虫 的 内 合子 也 稍微 显现 出 分 
布 上 的 S/R Tal HE. LEAR EH AID Ba ot , 
内 含 子 则 没有 显现 出 分 布 的 倾 癌 性 。 

一 些 研究 表明 , EG DRAG FN BA AM 
中 , 内 合子 的 丢失 主要 是 由 于 从 基因 的 3“ 末端 的 多 
聚 腺 苷 起 始 的 反 转 录 之 后 的 同 源 重 组 造成 的 , 这 导 
致 基因 3“ 末 端的 内 含 子 丢失 率 最 高 ( Boeke et al., 
1985 ;Fink 1987; Mourier and Jeffares, 2003 ) 。 我 
们 的 研究 表明 这 一 理论 似乎 也 适用 于 双 翅 目 昆 虫 。 
正 是 由 于 从 基因 的 3“ 末端 的 多 聚 腺 苷 起 始 的 反 转 
录 之 后 的 同 源 重组 导致 的 内 含 子 丢失 率 在 基因 的 
3' 末 端 相 对 最 高 , 才 使 得 昆虫 中 现存 的 内 含 子 有 轻 
微 的 5 末端 倾向 性 。 这 里 我 们 也 可 以 作 一 个 假设 : 
即使 在 富 含 内 含 子 的 真 核 细 胞 中 , 内 含 子 丢 失 的 原 


因 ( 或 原因 之 一 ) 可 能 也 是 从 基因 的 3 末端 的 多 聚 
腺 苷 开始 的 反 转 录 之 后 的 同 源 重 组 。 

尽管 内 含 子 已 经 被 发 现 30 多 年 了 , 但 是 目前 
还 缺乏 能 够 全 面 反 映 真 核 生 物 基 因 组 中 全 部 的 内 合 
子 进化 的 总 趋势 的 研究 方法 , 通过 编码 重 日 质保 守 
序列 的 DNA 区 域 的 内 仿 子 位 点 进化 特征 的 研究 ， 
可 以 从 一 个 侧面 反应 内 合子 进化 的 一 些 趋势 。 
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